ارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
نویسندگان
چکیده مقاله:
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. Authors claim that extraction of more meaningful keywords out of documents can be attained via employment of a thesaurus. The keywords extracted by applying thesaurus, can improve the document classification. The steps to be taken to increase the comprehensiveness of search should be such that in the first step the stop words are removed and the remaining words are stemmed. Then, with the help of a thesaurus are found words equivalent, hierarchical and dependent. Then, to determine the relative importance of words, a numerical weight is assigned to each word, which represents effect of the word on the subject matter and in comparison with other words used in the text. According to the steps above and with the help of a thesaurus, an accurate text classification is performed. In this method, the KNN algorithm is used for the classification. Due to the simplicity and effectiveness of this algorithm (KNN), there is a great deal of use in the classification of texts. The cornerstone of KNN is to compare with the text trained and text tested to determine their similarity between. The empirical results show the quality and accuracy of extracted keywords are satisfiable for users. They also confirm that the document classification has been enhanced. In this research, it has been tried to extract more meaningful keywords out of texts using thesaurus (which is a structured word-net) rather than not using it.
منابع مشابه
ارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
متن کاملارائه روشی جدید برای شاخص گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه بندی متون
در زبان فارسی کلمات دارای صورت های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح نامه که از نظامی ساختارمند برخوردار است می توان شبکه کلمات...
متن کاملمدلسازی بازشناسی واجی کلمات فارسی
Abstract of spoken word recognition is proposed. This model is particularly concerned with extraction of cues from the signal leading to a specification of a word in terms of bundles of distinctive features, which are assumed to be the building blocks of words. In the model proposed, auditory input is chunked into a set of successive time slices. It is assumed that the derivation of the underly...
متن کاملارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود....
متن کاملطراحی اولین پایگاه داده کلمات دستنویس کردی برای سیستم های تشخیص تصویری کلمات
چکیده: یکی از اجزای زیربنایی سیستم های تشخیص تصویری کلمات پایگاه داده هاست. هر سیستمی که در این زمینه طراحی گردد لاجرم می بایست از یک نوع پایگاه داده ها استفاده کند. بدیهی است چون موضوع مورد مطالعه در این سیستم ها شکل نوشتاری زبان های مختلف میباشد پس برای هر زبان مشخص پایگاه داده بخصوصی لازم است. زبانی که این مقاله بر آن متمرکز شده کردی است و در این مقاله مراحل مختلف چگونگی طراحی اولین پایگاه...
متن کاملکلمات مرکبِ «انعکاسی» در فارسی: انگارۀ دستوریشدگی
انعکاسیها در مطالعات زبانشناسی به آن دسته از واحدهای زبانی اطلاق میشوند که بهدلیلِ رمزگذاری هممرجعبودگی میان فاعل و موضوع دیگر فعل (مفعول مستقیم یا غیرمستقیم) یا تأکید برگروه اسمی در جمله بهکار گرفته میشوند. مختصر حاضر بر آن است تا به بررسی آن دسته از کلمات مرکب در زبان فارسی بپردازد که با عناصر انعکاسیِ: «خویش» و «خویشتن» و عنصر انعکاسی و انعکاسیِ تأکیدیِ «خود» پدید میآیند. این بررسی با ه...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 14 شماره 4
صفحات 55- 78
تاریخ انتشار 2018-03
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی برای این مقاله ارائه نشده است
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023